Um novo método do MIT-IBM Watson AI Lab ajuda grandes modelos de linguagem a direcionar suas próprias respostas para resultados mais seguros, éticos e alinhados a valores.

Grandes modelos de linguagem naturalmente contêm vieses e podem gerar linguagem tóxica, mas uma nova técnica dos pesquisadores do MIT-IBM Watson AI Lab os ajuda a produzir resultados menos prejudiciais, mantendo a fluência. Créditos: Foto: AdobeStock
À medida que amadurecemos desde a infância, nosso vocabulário — assim como as maneiras como o usamos — cresce e nossas experiências se enriquecem, permitindo-nos pensar, raciocinar e interagir com os outros com especificidade e intenção. Consequentemente, nossas escolhas de palavras evoluem para se alinhar aos nossos valores pessoais, ética, normas culturais e visões. Com o tempo, a maioria de nós desenvolve um "guia" interno que nos permite aprender o contexto por trás da conversa; ele também frequentemente nos afasta do compartilhamento de informações e sentimentos que são, ou podem ser, prejudiciais ou inapropriados. Acontece que modelos de linguagem de grande porte (LLMs) — que são treinados em conjuntos de dados públicos e extensos e, portanto, frequentemente contêm vieses e linguagem tóxica — podem adquirir uma capacidade semelhante de moderar sua própria linguagem.
Um novo método do MIT, do MIT-IBM Watson AI Lab e da IBM Research, chamado amostragem autorregressiva autodisciplinada (SASA), permite que os LLMs desintoxiquem seus próprios resultados, sem sacrificar a fluência.
Ao contrário de outros métodos de desintoxicação, este algoritmo de decodificação aprende uma fronteira entre subespaços tóxicos/não tóxicos dentro da própria representação interna do LLM, sem alterar os parâmetros do modelo, a necessidade de retreinamento ou um modelo de recompensa externo. Em seguida, durante a inferência, o algoritmo avalia o valor de toxicidade da frase parcialmente gerada: tokens (palavras) já gerados e aceitos, juntamente com cada novo token potencial que poderia ser razoavelmente escolhido por proximidade com a fronteira do classificador. Em seguida, ele seleciona uma opção de palavra que coloca a frase no espaço não tóxico, oferecendo, em última análise, uma maneira rápida e eficiente de gerar linguagem menos tóxica.
"Queríamos descobrir uma maneira com qualquer modelo de linguagem existente [que], durante o processo de geração, a decodificação pudesse estar sujeita a alguns valores humanos; o exemplo que estamos tomando aqui é a toxicidade", diz a autora principal do estudo, Ching-Yun "Irene" Ko, PhD '24, ex-estagiária de pós-graduação no MIT-IBM Watson AI Lab e atual cientista pesquisadora no Thomas J. Watson Research Center da IBM em Nova York.
Os coautores de Ko incluem Luca Daniel, professor do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, membro do Laboratório de IA Watson do MIT-IBM e orientador de pós-graduação de Ko; e vários membros do Laboratório de IA Watson do MIT-IBM e/ou da IBM Research — Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury e Tejaswini Pedapati. O trabalho será apresentado na Conferência Internacional sobre Representações de Aprendizagem.
Encontrando os “guardrails”
Os recursos de treinamento por trás dos LLMs quase sempre incluem conteúdo coletado de espaços públicos como a internet e outros conjuntos de dados facilmente disponíveis. Assim, palavrões e linguagem intimidadora/impagável são um componente, embora parte deles esteja no contexto de obras literárias. Conclui-se então que os LLMs podem inatamente produzir — ou ser induzidos a gerar — conteúdo perigoso e/ou tendencioso, que frequentemente contém palavras desagradáveis ou linguagem de ódio, mesmo a partir de estímulos inócuos. Além disso, descobriu-se que eles podem aprender e amplificar linguagem que não é preferida ou até mesmo prejudicial para muitas aplicações e tarefas subsequentes — levando à necessidade de estratégias de mitigação ou correção.
Existem muitas maneiras de alcançar uma geração de linguagem robusta, justa e alinhada a valores. Alguns métodos utilizam o retreinamento de LLM com um conjunto de dados higienizado, o que é custoso, demorado e pode alterar o desempenho do LLM; outros empregam modelos de recompensa externa de decodificação, como amostragem ou busca por feixe, que levam mais tempo para serem executados e exigem mais memória. No caso do SASA, Ko, Daniel e a equipe de pesquisa da IBM desenvolveram um método que aproveita a natureza autorregressiva dos LLMs e, usando uma estratégia baseada em decodificação durante a inferência do LLM, direciona gradualmente a geração — um token de cada vez — para longe de saídas desagradáveis ou indesejadas e em direção a uma linguagem melhor.
O grupo de pesquisa conseguiu isso construindo um classificador linear que opera no subespaço aprendido a partir da incorporação do LLM. Quando os LLMs são treinados, palavras com significados semelhantes são colocadas próximas umas das outras no espaço vetorial e mais distantes de palavras diferentes; os pesquisadores levantaram a hipótese de que a incorporação de um LLM também capturaria informações contextuais, que poderiam ser usadas para desintoxicação. Os pesquisadores usaram conjuntos de dados que continham conjuntos de um prompt (primeira metade de uma frase ou pensamento), uma resposta (a conclusão dessa frase) e anotações atribuídas por humanos, como tóxico ou não tóxico, preferido ou não preferido, com rótulos contínuos de 0 a 1, denotando toxicidade crescente. Um classificador Bayes-ótimo foi então aplicado para aprender e traçar figurativamente uma linha entre os subespaços binários dentro das incorporações de frases, representados por valores positivos (espaço não tóxico) e números negativos (espaço tóxico).
O sistema SASA funciona então reponderando as probabilidades de amostragem do token potencial mais recente com base no seu valor e na distância da frase gerada até o classificador, com o objetivo de permanecer próximo à distribuição de amostragem original.
Para ilustrar, se um usuário estiver gerando um token potencial nº 12 em uma frase, o LLM examinará todo o seu vocabulário em busca de uma palavra razoável, com base nas 11 palavras anteriores e, usando top-k, top-p, filtrará e produzirá aproximadamente 10 tokens para seleção. O SASA então avalia cada um desses tokens na frase parcialmente completa quanto à sua proximidade com o classificador (ou seja, o valor dos tokens de 1 a 11, mais cada token potencial 12). Tokens que produzem frases no espaço positivo são incentivados, enquanto aqueles no espaço negativo são penalizados. Além disso, quanto mais distante do classificador, maior o impacto.
“O objetivo é mudar o processo de amostragem autorregressiva, reponderando a probabilidade de tokens bons. Se o próximo token provavelmente for tóxico, dado o contexto, reduziremos a probabilidade de amostragem para aqueles propensos a serem tokens tóxicos”, diz Ko. Os pesquisadores optaram por fazer isso “porque as coisas que dizemos, sejam elas benignas ou não, estão sujeitas ao contexto”.
Reduzir a toxicidade para a correspondência de valor
Os pesquisadores avaliaram seu método em relação a diversas intervenções de base com três LLMs de tamanho crescente; todos eram transformadores e baseados em autorregressão: GPT2-Large, Llama2-7b e Llama 3.1-8b-Instruct, com 762 milhões, 7 bilhões e 8 bilhões de parâmetros, respectivamente. Para cada prompt, o LLM foi encarregado de completar a frase/frase 25 vezes, e o PerspectiveAPI pontuou-os de 0 a 1, com qualquer valor acima de 0,5 sendo tóxico. A equipe analisou duas métricas: a pontuação média máxima de toxicidade ao longo das 25 gerações para todos os prompts e a taxa de toxicidade, que era a probabilidade de produzir pelo menos uma frase tóxica ao longo de 25 gerações. A fluência reduzida (e, portanto, o aumento da perplexidade) também foram analisados. O SASA foi testado para completar os conjuntos de dados RealToxicityPrompts (RPT), BOLD e AttaQ, que continham prompts de frases em inglês que ocorrem naturalmente.
Os pesquisadores aumentaram a complexidade de seus testes para desintoxicação por SASA, começando com prompts não tóxicos do conjunto de dados RPT, buscando por completações de frases prejudiciais. Em seguida, eles escalaram para prompts mais desafiadores do RPT que eram mais propensos a produzir resultados preocupantes, e também aplicaram SASA ao modelo ajustado por instruções para avaliar se sua técnica poderia reduzir ainda mais saídas indesejadas. Eles também usaram os benchmarks BOLD e AttaQ para examinar a aplicabilidade geral de SASA na desintoxicação. Com o conjunto de dados BOLD, os pesquisadores procuraram ainda mais por viés de gênero em gerações de línguas e tentaram alcançar uma taxa tóxica equilibrada entre os gêneros. Por fim, a equipe analisou o tempo de execução, o uso de memória e como SASA poderia ser combinado com filtragem de palavras para alcançar uma geração de linguagem saudável e/ou útil.
“Se pensarmos em como os seres humanos pensam e reagem no mundo, vemos coisas ruins, então não se trata de permitir que o modelo da linguagem veja apenas as coisas boas. Trata-se de compreender o espectro completo — tanto o bom quanto o ruim”, diz Ko, “e escolher defender nossos valores quando falamos e agimos.”
No geral, o SASA obteve reduções significativas na geração de linguagem tóxica, com desempenho equivalente ao RAD, uma técnica de modelo de recompensa externa de última geração. No entanto, observou-se universalmente que uma desintoxicação mais intensa acompanhou uma diminuição na fluência. Antes da intervenção, os LLMs produziam mais respostas tóxicas para estímulos femininos do que para estímulos masculinos; no entanto, o SASA também conseguiu reduzir significativamente as respostas prejudiciais, tornando-as mais equilibradas. Da mesma forma, a filtragem de palavras em conjunto com o SASA reduziu significativamente os níveis de toxicidade, mas também prejudicou a capacidade do LLM de responder de forma coerente.
Um ótimo aspecto deste trabalho é que ele é um problema de otimização bem definido e restrito, diz Ko, o que significa que o equilíbrio entre a geração de linguagem aberta que soa natural e a necessidade de reduzir linguagem indesejada pode ser alcançado e ajustado.
Além disso, Ko afirma que o SASA poderia funcionar bem para múltiplos atributos no futuro: “Para os seres humanos, temos múltiplos valores humanos. Não queremos dizer coisas tóxicas, mas também queremos ser verdadeiros, prestativos e leais... Se você fosse ajustar um modelo para todos esses valores, isso exigiria mais recursos computacionais e, claro, treinamento adicional.” Devido à leveza do SASA, ele poderia ser facilmente aplicado nestas circunstâncias: “Se você quiser trabalhar com múltiplos valores, basta verificar a posição da geração em múltiplos subespaços. Isso apenas adiciona uma sobrecarga marginal em termos de computação e parâmetros”, diz Ko, levando a uma linguagem mais positiva, justa e alinhada aos princípios.
Este trabalho foi apoiado, em parte, pelo MIT-IBM Watson AI Lab e pela National Science Foundation.